개발 Q&A

제목 정규식 질문..
글쓴이 ㅅㅇ 작성시각 2014/10/05 19:31:19
댓글 : 5 추천 : 0 스크랩 : 0 조회수 : 15255   RSS
  제가작성한 php코드입니다..

<?php
 $ch = curl_init();

    $url = 'http://job.incruit.com/jobdb_list/searchjob.asp?ct=14&ty=1&cd=3&page=1&sortfield=mod&sortorder=1&articlecount=30';

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);


    $text = curl_exec($ch);

    curl_close($ch);

    preg_match_all("/\d+\"> (.+) <\/a>|class=\"vcheck\"> (.+) </i", $text, $matches);
    print_r($matches);

    }
?>

$url에 있는 http://job.incruit.com/jobdb_list/searchjob.asp?ct=14&ty=1&cd=3&page=1&sortfield=mod&sortorder=1&articlecount=30 에접속해서 회사이름과 제목을 정규식으로 가져올려고합니다.. 저런식으로 정규식을 작성했는데 print_r로 뽑아보니 

 
  Array
  (
  [0] => Array
  (
  [0] => 1409250042214"> (주)동화세상에듀코
  [1] => class="vcheck"> (인천) 평생직장 - 영수전문교사모집공고 <
  [2] => 1409120038229"> 김영모과자점
  [3] => class="vcheck"> 페르에피스에서 매니저 및 바리스타 / 키친부 정규사원.. <
  [4] => 1410020037449"> 하나스시
  [5] => class="vcheck"> 하나미에서 주방 직원을 모집합니다 <
  [6] => 1410020036424"> (주)제노레이
  [7] => class="vcheck"> 제노레이 연구소 (SW그룹) 연구원 채용 <
  [8] => 1409290011092"> 온더아이티
  [9] => class="vcheck"> 병역특례 전문연구요원 (S/W개발자 모집 ) <
  [10] => 1409110020643"> 테크노베이션파트너스
  [11] => class="vcheck"> 전문연구요원_ 과학기술정책 기획 및 평가, 정부R.. <
  [12] => 1409060027795"> 부영CST(주)
  [13] => class="vcheck"> 산업기능요원(현역,보충역) 모집/현역, 보충역 전직가능 <
  [14] => 1410010044482"> 삼양그룹
  [15] => class="vcheck"> 2015년 삼양그룹 신입연구원 및 전문연구요원(병특) <
  [16] => 1409300029426"> 영재컴퓨터
  [17] => class="vcheck"> 컴퓨터 상담및조립 내근직 (알바가능) <
  [18] => 1409300026116"> (주)지오매틱코리아
  [19] => class="vcheck"> 병역특례 정보처리분야(보충역) 모집 <
  [20] => 1409290011331"> (주)대경전자
  [21] => class="vcheck"> (주)대경전자 병역특례(보충역)모집 <
  [22] => 1409110019517"> (주)경일산업
  [23] => class="vcheck"> (주)경일산업 생산직 신입사원 채용공고(외국인가능) <
  [24] => 1409240047282"> 형제통신
  [25] => class="vcheck"> 핸드폰케이스 쇼핑몰 동업하실분 찾아요 <
  [26] => 1409240047281"> 형제통신
  [27] => class="vcheck"> 핸드폰 판매딜러 모집합니다. (대학생/주부/직장인 투.. <
  [28] => 1409220014712"> 슈어소프트테크
  [29] => class="vcheck"> 2015년 대졸신입 채용 <
  [30] => 1409180039307"> (주)한언
  [31] => class="vcheck"> (주)한언에서 2014 하반기 공채를 시작합니다. (출판기.. <
  [32] => 1409220010438"> S&S복싱체육관
  [33] => class="vcheck"> 복싱코치.트레이너 구함 <
  [34] => 1409190043571"> KG케미칼(주)
  [35] => class="vcheck"> KG케미칼 건설소재 R&D파트 인턴사원 모집 <
  [36] => 1409100005131"> (주)룩센테크놀러지
  [37] => class="vcheck"> 아날로그/디지털 IC (Analog/Digital Circuit D.. <
  [38] => 1409020029311"> (주)에코에너지기술연구소
  [39] => class="vcheck"> 연구원 채용안내(병역특례전문연구요원 0명/일반정규직.. <
  [40] => 1407070017094"> 나노바이오시스(주)
  [41] => class="vcheck"> 나노바이오시스 전자제어계측분야 전문연구요원.. <
  [42] => 1407140010030"> 주식회사인터내셔널사이언티픽스탠다드
  [43] => class="vcheck"> ISS 병역특례-자연계 석사학위 이상 연구전담요원 <
  [44] => 1408050027089"> 윤영길 세무회계
  [45] => class="vcheck"> 윤영길 세무회계 - 직원사칭하며 통장요구시 신고하세요. <
  [46] => 1407280012787"> (주)위트콤
  [47] => class="vcheck"> 개발직 전문연구요원(병역특례)모집 <
  [48] => 1407150041445"> (주)트레이스
  [49] => class="vcheck"> 병역특례 전문연구/산업기능요원(보충역) 모집 <
  [50] => 1407140013887"> (주)이스트소프트
  [51] => class="vcheck"> 게임 클라이언트 개발(산업기능요원 지원가능) <
  [52] => 1404120055847"> (주)와이티에스 글로벌
  [53] => class="vcheck"> FA장비 신입,경력직원 모집 <
  [54] => 1407100044209"> 주식회사 스텝포워드
  [55] => class="vcheck"> 기업체 출강 영어 강사 채용 <
  [56] => 1407070017648"> 나노바이오시스(주)
  [57] => class="vcheck"> (분자진단기업) 특허담당자 모집 <
  [58] => 1407020045529"> (주)이스트소프트
  [59] => class="vcheck"> 산업기능요원 보충역 수시모집(2014년도 TO배정) <
  )
   
  [1] => Array
  (
  [0] => (주)동화세상에듀코
  [1] =>
  [2] => 김영모과자점
  [3] =>
  [4] => 하나스시
  [5] =>
  [6] => (주)제노레이
  [7] =>
  [8] => 온더아이티
  [9] =>
  [10] => 테크노베이션파트너스
  [11] =>
  [12] => 부영CST(주)
  [13] =>
  [14] => 삼양그룹
  [15] =>
  [16] => 영재컴퓨터
  [17] =>
  [18] => (주)지오매틱코리아
  [19] =>
  [20] => (주)대경전자
  [21] =>
  [22] => (주)경일산업
  [23] =>
  [24] => 형제통신
  [25] =>
  [26] => 형제통신
  [27] =>
  [28] => 슈어소프트테크
  [29] =>
  [30] => (주)한언
  [31] =>
  [32] => S&S복싱체육관
  [33] =>
  [34] => KG케미칼(주)
  [35] =>
  [36] => (주)룩센테크놀러지
  [37] =>
  [38] => (주)에코에너지기술연구소
  [39] =>
  [40] => 나노바이오시스(주)
  [41] =>
  [42] => 주식회사인터내셔널사이언티픽스탠다드
  [43] =>
  [44] => 윤영길 세무회계
  [45] =>
  [46] => (주)위트콤
  [47] =>
  [48] => (주)트레이스
  [49] =>
  [50] => (주)이스트소프트
  [51] =>
  [52] => (주)와이티에스 글로벌
  [53] =>
  [54] => 주식회사 스텝포워드
  [55] =>
  [56] => 나노바이오시스(주)
  [57] =>
  [58] => (주)이스트소프트
  [59] =>
  )
   
  [2] => Array
  (
  [0] =>
  [1] => (인천) 평생직장 - 영수전문교사모집공고
  [2] =>
  [3] => 페르에피스에서 매니저 및 바리스타 / 키친부 정규사원..
  [4] =>
  [5] => 하나미에서 주방 직원을 모집합니다
  [6] =>
  [7] => 제노레이 연구소 (SW그룹) 연구원 채용
  [8] =>
  [9] => 병역특례 전문연구요원 (S/W개발자 모집 )
  [10] =>
  [11] => 전문연구요원_ 과학기술정책 기획 및 평가, 정부R..
  [12] =>
  [13] => 산업기능요원(현역,보충역) 모집/현역, 보충역 전직가능
  [14] =>
  [15] => 2015년 삼양그룹 신입연구원 및 전문연구요원(병특)
  [16] =>
  [17] => 컴퓨터 상담및조립 내근직 (알바가능)
  [18] =>
  [19] => 병역특례 정보처리분야(보충역) 모집
  [20] =>
  [21] => (주)대경전자 병역특례(보충역)모집
  [22] =>
  [23] => (주)경일산업 생산직 신입사원 채용공고(외국인가능)
  [24] =>
  [25] => 핸드폰케이스 쇼핑몰 동업하실분 찾아요
  [26] =>
  [27] => 핸드폰 판매딜러 모집합니다. (대학생/주부/직장인 투..
  [28] =>
  [29] => 2015년 대졸신입 채용
  [30] =>
  [31] => (주)한언에서 2014 하반기 공채를 시작합니다. (출판기..
  [32] =>
  [33] => 복싱코치.트레이너 구함
  [34] =>
  [35] => KG케미칼 건설소재 R&D파트 인턴사원 모집
  [36] =>
  [37] => 아날로그/디지털 IC (Analog/Digital Circuit D..
  [38] =>
  [39] => 연구원 채용안내(병역특례전문연구요원 0명/일반정규직..
  [40] =>
  [41] => 나노바이오시스 전자제어계측분야 전문연구요원..
  [42] =>
  [43] => ISS 병역특례-자연계 석사학위 이상 연구전담요원
  [44] =>
  [45] => 윤영길 세무회계 - 직원사칭하며 통장요구시 신고하세요.
  [46] =>
  [47] => 개발직 전문연구요원(병역특례)모집
  [48] =>
  [49] => 병역특례 전문연구/산업기능요원(보충역) 모집
  [50] =>
  [51] => 게임 클라이언트 개발(산업기능요원 지원가능)
  [52] =>
  [53] => FA장비 신입,경력직원 모집
  [54] =>
  [55] => 기업체 출강 영어 강사 채용
  [56] =>
  [57] => (분자진단기업) 특허담당자 모집
  [58] =>
  [59] => 산업기능요원 보충역 수시모집(2014년도 TO배정)
  )
   
  )
   

빈공간 내용 빈공간 내용 빈공간 내용 이런식으로 출력이되는데 

빈공간 없이 company 0~29 subject 0~29 

차례대로 쭉 뽑아올려면 어떻게해야될까요 ..ㅠㅠ
 다음글 테이블 출력 질문 드립니다. (3)
 이전글 HTMLPurifier 코드이그나이터용 헬퍼로 ifra... (2)

댓글

들국화 / 2014/10/06 11:12:57 / 추천 0
원문이 있어야 정확한건 알수 있을것 같은데요
클로즈 테그를 잘 캐치를 못하네요. .+에 <를 제외 시켜 주세요.
darkninja / 2014/10/07 16:19:16 / 추천 0
top_company 와 condition_tit 이 
한꾸러미에 들어있지 않아서 정규식만으로는 힘들겠네요!
html 라이브러리를 사용하시던지 만드셔야 편해지겠습니다.
정규식을 제대로 사용하려면 구간의 시작과 끝이 
확실해야 하더군요!
 
   <td class="company">
    <dl>
     <dd class="scrap"><img src="http://img.incruit.com/common/icon/icon_scrap_no.gif" width="14" height="14" id="icon_scrap_nor_1410070032222" name="icon_scrap" title="클릭하면 스크랩됩니다" style="vertical-align:middle; margin-top:-1px;cursor:pointer " onclick="callScrapAdd('IncJob', '', '', '1410070032222', 'nor')" /></dd>
     <dd class="top_company"><a href="http://job.incruit.com/jobdb_info/jobpost.asp?job=1410070032222"> (주)지오매틱코리아 </a>
                  <p><a href="http://job.incruit.com/jobdb_list/searchjob.asp?ct=9&ty=1&cd=1" rel="nofollow"><a href="http://job.incruit.com/jobdb_list/searchjob.asp?ct=31&ty=1&cd=1" rel="nofollow">우수기업</a></a></p>
     </dd>
    </dl>
   </td>
   <td>
    <ul class="jobtitle">
     <li  class="condition_tit"><a href="http://job.incruit.com/jobdb_info/jobpost.asp?job=1410070032222"  class="vcheck"> 병역특례 정보처리분야(보충역) 모집 </a>
     <span id="RecmdIcon"><img src="http://img.incruit.com/fe/sub_home_contents_job/img/bullet/icon_ucc03.gif" onmouseover="fnShowRecmd_Layer(this);return false;" onmouseout="fnHideRecmd_Layer(this);return false;"></span>
     </li>
     <li class="condition"><span class="terms">병역특례 | 회사내규</span>
     </li>
     <li class="new">
      <a href="http://job.incruit.com/jobdb_info/jobpost.asp?job=1410070032222"  onclick="return goCL(this,'18011','job','새창');" target="_blank" class="new" rel="nofollow"><span>새창</span></a>
     </li>
    </ul>
   </td>
letsgolee / 2014/10/07 21:46:28 / 추천 0
<?php
 $ch = curl_init();

    $url = 'http://job.incruit.com/jobdb_list/searchjob.asp?ct=14&ty=1&cd=3&page=1&sortfield=mod&sortorder=1&articlecount=30';

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    $text = curl_exec($ch);
    curl_close($ch);

    preg_match_all('/<dd class="top_company"><a [^>]+>([^<]+)<\/a>/i', $text, $matches);
    print_r($matches[1]);

    preg_match_all('/<li[ ]+class="condition_tit"><a[^>]+class="vcheck">([^<]+)(<img [^>]+>[ ]?)?(<img [^>]+>[ ]?)?<\/a>(\r)?\n/Ui', $text, $matches);
    print_r($matches[1]);

?>
darkninja / 2014/10/08 00:02:37 / 추천 0
한글이 깨지는 경우 이렇게 호출하면 나오네요!
   $text = curl_exec_utf8($ch);
   //$text = curl_exec($ch);
아니면 이렇게
  foreach ($matches[1] as $match) {
    echo iconv('EUC-KR', 'UTF-8', $match) . '<br>';  
    //echo $match . '<br>';  
  }

http://stackoverflow.com/questions/2510868/php-convert-curl-exec-output-to-utf8
/** The same as curl_exec except tries its best to convert the output to utf8 **/
function curl_exec_utf8($ch) {
    $data = curl_exec($ch);
    if (!is_string($data)) return $data;

    unset($charset);
    $content_type = curl_getinfo($ch, CURLINFO_CONTENT_TYPE);

    /* 1: HTTP Content-Type: header */
    preg_match( '@([\w/+]+)(;\s*charset=(\S+))?@i', $content_type, $matches );
    if ( isset( $matches[3] ) )
        $charset = $matches[3];

    /* 2: <meta> element in the page */
    if (!isset($charset)) {
        preg_match( '@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i', $data, $matches );
        if ( isset( $matches[3] ) )
            $charset = $matches[3];
    }

    /* 3: <xml> element in the page */
    if (!isset($charset)) {
        preg_match( '@<\?xml.+encoding="([^\s"]+)@si', $data, $matches );
        if ( isset( $matches[1] ) )
            $charset = $matches[1];
    }

    /* 4: PHP's heuristic detection */
    if (!isset($charset)) {
        $encoding = mb_detect_encoding($data);
        if ($encoding)
            $charset = $encoding;
    }

    /* 5: Default for HTML */
    if (!isset($charset)) {
        if (strstr($content_type, "text/html") === 0)
            $charset = "ISO 8859-1";
    }

    /* Convert it if it is anything but UTF-8 */
    /* You can change "UTF-8"  to "UTF-8//IGNORE" to 
       ignore conversion errors and still output something reasonable */
    if (isset($charset) && strtoupper($charset) != "UTF-8")
        $data = iconv($charset, 'UTF-8', $data);

    return $data;
}
ㅅㅇ / 2014/10/09 05:44:54 / 추천 0
감사합니다.